Post

Confusion Matrix: Tổng Quan và Ứng Dụng

Nội dung

1. Giới thiệu

Confusion Matrix là một công cụ giúp đánh giá hiệu quả của mô hình phân loại. Nó cho biết mô hình dự đoán đúng sai như thế nào trên từng loại nhãn.

2. Khái niệm Confusion Matrix

Confusion Matrix là bảng thể hiện số lượng dự đoán đúng và sai giữa nhãn thật và nhãn dự đoán của mô hình.

3. Các thành phần trong Confusion Matrix

Trong bài toán phân loại nhị phân, Confusion Matrix gồm 4 phần chính:

  • True Positive (TP): Dự đoán đúng nhãn Positive
  • True Negative (TN): Dự đoán đúng nhãn Negative
  • False Positive (FP): Dự đoán sai nhãn Positive (thực ra là Negative)
  • False Negative (FN): Dự đoán sai nhãn Negative (thực ra là Positive)

4. Các chỉ số đánh giá từ Confusion Matrix

4.1 Accuracy

Tỉ lệ dự đoán đúng trên tổng số mẫu:
\(\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}\)

4.2 Precision

Tỉ lệ dự đoán đúng trong số mẫu dự đoán là Positive:
\(\text{Precision} = \frac{TP}{TP + FP}\)

4.3 Recall

Tỉ lệ dự đoán đúng trong số mẫu thật là Positive:
\(\text{Recall} = \frac{TP}{TP + FN}\)

4.4 F1-Score

Là trung bình harmonic của Precision và Recall:
\(\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}\)

5. Ứng dụng Confusion Matrix trong bài toán phân loại

Giả sử bài toán phân loại nhị phân có kết quả như sau:

MẫuGround truthPredicted
1000PositivePositive
200PositiveNegative
1500NegativeNegative
300NegativePositive

Tính được:

  • TP = 1000
  • TN = 1500
  • FP = 300
  • FN = 200

Ma trận nhầm lẫn

Các chỉ số:

\[\text{Accuracy} = \frac{1000 + 1500}{1000 + 1500 + 300 + 200} = \frac{2500}{3000} = 0.8333\] \[\text{Precision} = \frac{1000}{1000 + 300} = \frac{1000}{1300} \approx 0.7692\] \[\text{Recall} = \frac{1000}{1000 + 200} = \frac{1000}{1200} \approx 0.8333\] \[\text{F1} = 2 \times \frac{0.7692 \times 0.8333}{0.7692 + 0.8333} \approx 0.8000\]

6. Tham khảo

[1] Scikit-learn Developers. sklearn.metrics.confusion_matrix — scikit-learn 1.4.2 documentation. 🔗 https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html

This post is licensed under CC BY 4.0 by the author.